二分类任务评估指标
二分类任务中的核心概念
术语 | 全称 | 定义 | 论文中的具体示例 |
---|---|---|---|
TP (True Positive) |
真阳性 | 模型正确识别出的正例 | 将实际用典的句子判断为"用典"(Label=1) |
TN (True Negative) |
真阴性 | 模型正确识别出的负例 | 将实际未用典的句子判断为"未用典"(Label=0) |
FP (False Positive) |
假阳性 | 模型错误识别为正例的负例 | 未用典的句子被误判为"用典"(Type I错误) |
FN (False Negative) |
假阴性 | 模型错误识别为负例的正例 | 实际用典的句子被漏判(Type II错误) |
- TP/TN 反映模型的基本识别能力
- FP 过高会导致结果包含大量噪声(如将普通句子误认为用典)
- FN 过高意味着漏检严重(如漏掉真实用典句)
二分类指标
指标 | 计算公式 | 应用场景说明 |
---|---|---|
准确率 | (TP+TN)/(TP+TN+FP+FN) | 整体判断正确率,适用于正负样本均衡场景 |
精确率 | TP/(TP+FP) | 预测为正例的样本中实际正例的比例 |
召回率 | TP/(TP+FN) | 实际正例中被正确识别的比例 |
F1值 | 2 x (精确率 x召回率)/(精确率+召回率) | 综合平衡精确率和召回率 |